文字轉語音工具
比較並試用幾個常見的文字轉語音(text-to-speech,TTS)的線上服務或單機開源工具。
目前有數量相當多的線上服務,都相當容易上手。但可以產生聽起來順耳的中文語音服務數量有限,隱私以及費用是主要的問題。
單機開源工具沒有隱私以及費用的問題,但技術門檻高,而且相當吃電腦硬體資源,一般的電腦要生成語音的速度大概都不會太快。可以產生聽起來順耳的單機開源工具也相當有限。
特性 | 線上服務 (Online Services) | 單機開源工具 (Offline Open-source Tools) |
---|---|---|
優點 | 1. 易於使用: 無需安裝,透過網頁介面使用即可。 | 1. 完全免費: 軟體本身及使用上沒有費用(訓練成本除外)。 |
2. 高品質語音: 雲端供應商通常提供高自然度、多樣化的語音。 | 2. 數據隱私: 語音合成過程在本地進行,無需將數據上傳到雲端。 | |
3. 無需本機硬體資源: 所有運算都在雲端進行,不佔用本機電腦資源。運算速度通常也比本機電腦快許多。 | 3. 客製化程度高: 程式碼開源,可以根據需求修改和優化。 | |
4. 維護與更新: 服務商會定期更新和維護,無需自行管理。 | 4. 不需網路: 一旦安裝,即可離線使用。 | |
5. 擴展性: 隨用隨付,可根據需求擴展使用量。 | ||
缺點 | 1. 收費: 通常按使用量(字數)計費,長期或大量使用成本較高。 | 1. 技術門檻高: 通常需要編寫程式碼、機器學習和語音處理等知識才能自在使用。 |
2. 數據隱私: 需要將文字內容上傳到雲端進行處理。 | 2. 需要本機硬體資源: 尤其是訓練模型時需要強大的CPU/GPU。 | |
3. 需要連上網路: 需要穩定的網路連線才能使用。 | 3. 語音品質不一: 開源模型品質差異大,通常不如商業服務。 | |
4. 客製化限制: 只能在服務商提供的選項內進行選擇,客製化彈性較低。 | 4. 維護與更新: 需要自行管理和更新,可能缺乏即時支援。 | |
5. 部署複雜: 安裝和設定過程可能較為繁瑣。 |
線上TTS測試
我測試了五個服務讓它們唸一段中文文字。這些服務包含了雅婷、Ondoku、luvvoice、Elevenlab、TTSmaker。目前聽起來還是雅婷的中文聽起來最順耳,其次是Ondoku以及luvvoice。
[音檔](https://drive.google.com/drive/folders/1Gijte8TXEcCqLPYO0_n4yPCNOXN0U1BQ?usp=sharing)在此。
服務名稱 | 收費方式 | 是否可模仿聲音 | 備註 |
---|---|---|---|
雅婷 | 字數計費(298/10萬字) | 是(需透過 API) | 需使用 API 上傳音檔訓練模型,每帳戶最多保留五個聲音模型。 |
Ondoku | 按月計費 | 否 | 每月有字數上限 |
luvvoice | 按月計費 | 是 | 每月有字數上限 |
Elevenlab | 按月計費 | 是 | 每月有字數上限 |
TTSmaker | 按月計費 | 否 | 每月有字數上限 |
單機TTS測試
研究如何部署中……(真的不簡單)。預計將先測試聯發創新基地釋出的BreezeVoice。